import tiktoken

# 获取名为 "cl100k_base" 的编码器（GPT-4 使用的编码方式之一）
encoding = tiktoken.get_encoding("cl100k_base")

# 定义一个字符串
text = "Hello, world!"
# 使用编码器对字符串进行编码，得到对应的 token 列表
tokens = encoding.encode(text)
# 输出编码后的 token 列表
print("Encoded tokens:", tokens)
# 使用编码器对 token 列表进行解码，得到原始字符串
# decoded_text = encoding.decode(tokens)
# # 输出解码后的字符串
# print("Decoded text:", decoded_text)

# 打印每个token对应的字符串
print(
    f"token对应的文本：{[encoding.decode_single_token_bytes(token) for token in tokens]}"
)
